IA023
Introducción a la programación con Triton
Multiplicación de matrices y fusión de operadores en modelos de lenguaje grandes
Objetivos de aprendizaje
- Analizar la intensidad aritmética y los límites del techo (roofline) de GEMM en transformadores
- Identificar operaciones limitadas por memoria frente a operaciones limitadas por cálculo dentro de los bloques de transformadores
- Evaluar estrategias de fusión de operadores para reducir la sobrecarga de acceso a memoria global
- Examinar patrones de implementación para fusionar capas de activación, normalización y atención